AI资讯新闻榜单内容搜索-LLM

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知，对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说，构建高质量的网络规模数据集是非常重要的。然而，即使是最先进的开源 LLM 的预训练数据集也不公开，人们对其创建过程知之甚少。

来自主题: AI技术研报

8617 点击 2024-06-04 17:45

解决Transformer根本缺陷，CoPE论文爆火：所有大模型都能获得巨大改进

即使最强大的 LLM 也难以通过 token 索引来关注句子等概念，现在有办法了。

来自主题: AI资讯

8626 点击 2024-05-31 19:10

斯坦福新研究：RAG能帮助LLM更靠谱吗？

斯坦福大学的研究人员研究了RAG系统与无RAG的LLM （如GPT-4）相比在回答问题方面的可靠性。研究表明，RAG系统的事实准确性取决于人工智能模型预先训练的知识强度和参考信息的正确性。

来自主题: AI技术研报

6432 点击 2024-05-29 15:49

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

本文介绍了香港科技大学（广州）的一篇关于大模型高效微调（LLM PEFT Fine-tuning）的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」

来自主题: AI技术研报

9716 点击 2024-05-26 13:50

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

为了将大型语言模型（LLM）与人类的价值和意图对齐，学习人类反馈至关重要，这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方面，一种有效的方法是根据人类反馈的强化学习（RLHF）。尽管经典 RLHF 方法的结果很出色，但其多阶段的过程依然带来了一些优化难题，其中涉及到训练一个奖励模型，然后优化一个策略模型来最大化该奖励。

来自主题: AI技术研报

9624 点击 2024-05-26 13:45

腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源

以 OpenAI 的 GPT 系列模型为代表的大语言模型（LLM）掀起了新一轮 AI 应用浪潮，但是 LLM 推理的高昂成本一直困扰着业务团队。

来自主题: AI技术研报

9971 点击 2024-05-24 20:58

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源

近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显著的成功。然而，作为许多下游任务的基础模型，当前的 MLLM 由众所周知的 Transformer 网络构成，这种网络具有较低效的二次计算复杂度。

来自主题: AI技术研报

7301 点击 2024-04-22 17:42

腾讯大模型落地实操：模型推理引擎 TACO-LLM 的实践、腾讯乐享的 AI 功能探索

大模型在今年的落地，除了对用 AI 对已有业务进行改造和提效外，算力和推理的优化，可能是另外一项重要的实践了。这在腾讯的两个完全不同的业务上有着明显的体现。

来自主题: AI资讯

10149 点击 2024-04-10 21:12

Llama架构比不上GPT2？神奇token提升10倍记忆？

近日，朱泽园 (Meta AI) 和李远志 (MBZUAI) 的最新研究《语言模型物理学 Part 3.3：知识的 Scaling Laws》用海量实验（50,000 条任务，总计 4,200,000 GPU 小时）总结了 12 条定律，为 LLM 在不同条件下的知识容量提供了较为精确的计量方法。

来自主题: AI资讯

4239 点击 2024-04-10 19:11

企业内部如何更好落地大模型？我们走访了 10+ 先行者

在微软推出 Copilot 后，工作场景中如何落地 LLM 很快成为业内关注的重点。钉钉、飞书等办公软件也快速在最新版本中集成 AI 功能。对于软件企业而言，在已有的软件上增加 AI 功能，并带来新产值，已经被 Notion、多邻国等产品所验证。除此之外，在企业生产场景中，集成 LLM 的能力，并为企业组织赋能，也成为人们关注 AI 落地的一个视角。

来自主题: AI资讯

5965 点击 2024-04-03 11:43